機械翻訳（MT）は、過去10年間で大きな進歩を遂げました。品質が大いに向上し、今や翻訳ワークフローにおいて不可欠の技術になりました。しかし、適切なエンジンの選択方法が分からない新規ユーザーと既存ユーザーは、MTを最大限に活用しきれていません。そこで今回は、MTエンジンの品質の内訳と、コンテンツに最適なエンジンを選択する方法をご紹介します。

機械翻訳の基本を知りたいですか？ 初心者のための機械翻訳ガイドをご覧ください。

まず機械翻訳エンジンを起動しましょう

これからMTを使う場合でも、あるいは既に翻訳で活用している場合でも、最も重要なポイントは、どのエンジンを使うかです。

現在、選択できるMTエンジンの数と種類は膨大にあります。MTをめぐる状況は常に変化しています。そういった中で絶えず新しいエンジンがリリースされ、また、既存のエンジンも改善され続けています。最高のパフォーマンスを発揮するエンジンを選ぶことは、複雑でもどかしいプロセスになるでしょう。

そういった時には、全体像を思い描いてみてください。MTを使用する主な利点は、時間とコストの節約です。機械翻訳は一瞬で終わりますし、さらに人間による翻訳と比較した場合、コストはごくわずかです。これは現在利用可能なすべてのMTエンジンで言えることです。

唯一の障壁は、機械翻訳のアウトプットの品質です。この点は、MTのワークフローを管理するときに考慮すべき最も重要なポイントです。低品質の翻訳では、時間とコストを節約した成果も台無しになりかねません。

機械翻訳の品質について

MTの最近の開発、特に統計的機械翻訳からニューラル機械翻訳への大規模な移行により、MTの基本品質は劇的に向上しました。弊社の社内データによると、2017年以降、最小限のポストエディットを要する完全一致に近い翻訳の量が、約2倍に増えています。最も一般的に使用されているエンジンを使えば、原文のニュアンスまで正確に伝えてくれないにしても、まずまずの意味は伝達できるレベルの翻訳を得られるでしょう。

機械翻訳の品質

**MTの品質を信頼できるかどうかは、タスクのサイズと重要性によって、大きく変わってきます。**たとえば、授業の前に数行の宿題を素早く終わらせたいと願う不届きな学生は、翻訳の質にこだわりません。今日利用されている主なMTエンジンのどれを使っても、この目的のために適度な翻訳を提供してくれます。エラーがおこるとすると、MTエンジンが貧弱というよりも、原文の表現が曖昧なためである可能性が高いでしょう。一方、もしあなたが、風情ある入れ墨を入れるために、自分自身の座右の銘をフランス語か中国語に翻訳しようとしていたら、ネイティブスピーカーに翻訳を再チェックしてもらいたいと願うかもしれません。ちなみにインターネット上には、イマイチな入れ墨の写真があふれています。これは、人々がMTエンジンに過度の信頼を置いている証拠といえます。

また、規模によっても事情は変わります。大企業の場合には、「まずまずの」レベルの翻訳では、不十分でしょう。さらに翻訳の量が増えると、単純なエラーも積み重なり、 比例して壊滅的なエラーが発生する可能性も増し、最終的には、より広範囲の（そして費用のかかる）人間によるレビューとポストエディットが必要になります。コストはかさみ、ワークフローが進行する速度も遅くなります。

一方、大規模な翻訳では、ポジティブな要素が明白になりやすいという面もあります。翻訳すればするほど、小規模なサンプルでは気付かなかったような、機械翻訳エンジンによる違いが見えてきます。こういった違いは、積み重なると大きな違いになります。エンジンの中には、使用していくと、パフォーマンスが向上するものもあります。正しいエンジンを使い続ければ、品質が向上し、コストも節約できるでしょう。そのためには、最高のパフォーマンスを発揮するエンジンを選択することが重要です。

様々な機械翻訳エンジンについては、 機械翻訳レポートをご覧ください。

機械翻訳エンジンの種類

機械翻訳エンジンを選択する際には、Amazon Translate、Google Translate、Microsoft Translator などの一般的なエンジンか、あるいはカスタマイズしたエンジンか、どちらかを選べます。どちらのタイプのエンジンも、過去の翻訳データをもとに、翻訳を行います。

カスタマイズしたエンジンは、データを提供し、トレーニングを行っていくことで、品質を改善できます。高品質の過去の翻訳があれば、エンジンを改善するために利用できます。これによって、これまであなたが翻訳してきたような訳を、MTが生成できるようになるでしょう。特に旅行やホスピタリティ関連のコンテンツは、カスタムエンジンのトレーニングに適しています。ホテルのリストやユーザーレビューは、内容がよく似ています。また、利用可能なコンテンツの量が非常に多いためエンジントレーニングがしやすく、望ましい結果になりやすいのです。

この特徴はカスタムエンジンの最大の利点ですが、同時に、欠点でもあります。特定の種類のコンテンツに焦点を合わせると、その分野以外のパフォーマンスが低下する可能性があるためです。ホテルの説明とレビューでトレーニングされたエンジンは、ニュース記事を上手に翻訳できない場合もあるでしょう。

また、カスタムエンジンは、一般的にセットアップと保守に費用がかかります。カスタムエンジンは、同じようなスタイルと内容の原稿を大量に処理する必要があるビジネスに最適です。少しぐらいコストがかかっても、正当化できるほどの成果をもたらします。

一方、ほとんどのユーザーにとっては汎用エンジンが最良のオプションです。セットアップが迅速にできる上、カスタムエンジンよりもコストが大幅に低いためです。品質を重視する場合には、他のエンジンと比較した上でエンジンを選択することになりますが、これは少し複雑なプロセスになります。

機械翻訳の品質を評価するか、あるいは、見積もるか？

エンジンを選択する時には常に、MTの品質を評価して、金額に見合う価値があるかどうか判断することをおすすめします。多くのMTユーザーは、ひとつのエンジンにしぼる前に、利用可能なすべてのオプションについて広範囲な評価を実行します。翻訳業界には、このプロセスを標準化するための、多くの品質指標があります。

一般的に、品質評価と品質の見積もりは区別が可能です。

品質評価は、通常、同じ原文を人間が翻訳した場合を参照して、MT出力の品質を評価します。ほとんどの読者は、どの翻訳がより「自然」であるかは簡単に判断できます。ですが、純粋に主観的な評価では、大規模な評価を効率的に実施することはできません。

方法のひとつとして、バイリンガルの専門家が、MT出力の翻訳品質とプロの翻訳者の翻訳を、ブラインドテストで評価する手法があります。これまで、この方法によってMTの品質向上が謳われてきました。ですが、この方法には大きな制約があります。

それは、主にコストの問題です。このテストを実行するには、人間の翻訳者と人間の評価者が必要になります。正確な評価を得るには、テストにかなりのリソースを投資する必要があるでしょう。評価が主観的になってしまうという懸念もあります。ある研究では、プロの翻訳者は、プロではない翻訳者とは対照的に、人間の翻訳に対して高く評価する傾向が示されました。同様に、セグメントレベルの評価は、記事全体の文脈の中でセグメントを評価するときと比べ、MTに有利に働く傾向があります。

別の評価方法として、コンピュータアルゴリズムを使用して大量の翻訳をすばやく評価し、客観的な数値スコアを生成する方法があります。このスコアは、MT出力と参照翻訳の自動比較によって生成されます。計算に含まれる正確な変数はアルゴリズムごとに異なりますが、一般的には、MT翻訳が参照する翻訳に似ているほど、スコアは高くなります。

アルゴリズムは実に様々なものがありますが、今日最も一般的に使用されているものは次のとおりです。

BLEU (BiLingual Evaluation Understudy)
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
METEOR (Metric for Evaluation of Translation with Explicit ORdering)

これらのアルゴリズムはそれぞれ、MT出力が参照翻訳とどの程度「類似」しているかを測定するために異なるアプローチを取っています。それぞれ長所と短所があり、議論の余地があります。

一般的には、品質評価とは翻訳結果を評価するための有効な手段です。ユーザーはそのプロセスをコントロールできる上、エンジンの比較を行う上で信頼できる評価結果を得られます。ただし、人間が翻訳したテキストを参照用に準備したり、評価自体を設定するプロセスには、時間と費用がかかります。また、これらの評価が、ある特定の時点での「スナップショット」を効果的に生み出してしまう点も弱点です。現在、ほとんどのMTエンジンは、時間の経過とともに急速に進化しています。昨日の結果は、今日はもう当てはまらない可能性もあるのです。

一方、品質見積もりは、品質評価と仕組みが異なります。MTエンジンの出力を評価するのではなく、翻訳したい原文を分析し、特定の基準に基づいて、翻訳がどれだけ良いかを予測していきます。

Memsourceの機能を例にとってご説明します。Memsourceは、機械翻訳品質評価（MTQE）として知られる、品質評価基準を開発しました。MTQEを使用する際には、参照翻訳は必要ありません。原文さえあれば、過去のパフォーマンスデータをもとに、評価を実施します。「品質」は、エンジンによって生成された出力結果に、編集を加える必要があるかどうかで評価されます。MTQEでは、品質は、各セグメント上にパーセンテージとして表されます。100％のスコアは、この特定のセグメントが完全で編集の必要がないことを示し、75％のスコアは、改善の余地があることを示します。見積もりはセグメントごとに細かく行っていきますが、累積的にスコアを見ることで、エンジンの性能も把握できます。品質見積もりの利点の1つは、ユーザーのフィードバックに基づいて継続的に改善され、それによって結果が改善される動的なプロセスであることです。「静的な」プロセスではありません。

品質評価と品質見積もりのどちらを選択しても、あなたは様々なエンジンがどのように機能するか、そしてどのエンジンがあなたのニーズにピッタリ合っているかが分かります。

複数の機械翻訳エンジンを利用すべきか？

ひとつのエンジンだけを利用する必要はありません。これもまた、大事な点です。ほとんどの翻訳管理ツールには、ユーザーがエンジンを素早く切り替えられる機能が備わっています。エンジンAは特定の言語ペアに適しているのに対し、エンジンBは特定の種類のコンテンツの翻訳に適しているとしましょう。この場合、エンジンAまたはBのどちらかひとつしか使わないでいると、選択しなかったエンジンのほうが良い品質の翻訳が得られたという事態も起こりえます。

Memsourceでは、こういった事態が起こらないよう、Memsource Translateを開発しました。複数のエンジンを便利に活用しつつ、最高の翻訳を実現できる独自の機械翻訳管理機能です。弊社のAIを利用したアルゴリズムによって、ドキュメントの言語ペアとコンテンツタイプに基づいて、コンテンツに最適なMTエンジンを自動的に選択します。エンジン性能に関するデータはリアルタイムで収集され、アルゴリズムの推奨事項を継続的に更新するために使われます。Memsource Translateには3つのフルマネージドエンジンが付属しています。さらに、ユーザーはカスタマイズ可能なエンジンを含め、独自のエンジンを追加できます。エンジンの管理とテストのプロセスが自動化されるので、MTの初心者も既存のユーザーも、ワークフローを最適化できるようになるでしょう。

機械翻訳エンジンの品質のせいでMTが活用しきれない、という事態は変えられます。難題を解決する方法も、新たなイノベーションも数多くあります。こうした技術を利用することで、あなたの翻訳をさらに効率化できます。

目次

Memsourceは初めてですか？

機械翻訳のエンジンの品質を管理する方法

Memsourceは初めてですか？

まず機械翻訳エンジンを起動しましょう

機械翻訳の品質について

機械翻訳エンジンの種類

機械翻訳の品質を評価するか、あるいは、見積もるか？

一般的に、品質評価と品質の見積もりは区別が可能です。

複数の機械翻訳エンジンを利用すべきか？

最近の記事

翻訳におけるQA（品質保証）とは？重要な理由と具体的なプロセス、効果的な手法

Google翻訳の精度は向上している？ DeepLなど他エンジンとの比較、最大限に活用する方法

高精度機械翻訳「DeepL」とは？ Google翻訳との違い、効果的な利用方法

目次

Memsourceは初めてですか？

機械翻訳のエンジンの品質を管理する方法

まず機械翻訳エンジンを起動しましょう

機械翻訳の品質について

機械翻訳エンジンの種類

機械翻訳の品質を評価するか、あるいは、見積もるか？

一般的に、品質評価と品質の見積もりは区別が可能です。

複数の機械翻訳エンジンを利用すべきか？

翻訳におけるQA（品質保証）とは？ 重要な理由と具体的なプロセス、効果的な手法

Google翻訳の精度は向上している？ DeepLなど他エンジンとの比較、最大限に活用する方法

高精度機械翻訳「DeepL」とは？ Google翻訳との違い、効果的な利用方法

翻訳におけるQA（品質保証）とは？重要な理由と具体的なプロセス、効果的な手法